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Die folgenden Angaban sind dan vom Anmeldar eingaraichtan Untariagen antnomman 

Prufungsantrag gem. § 44 PatG ist gestellt 
(g) Bildgestutzte adaptive Akustik 

@ Die Erfindung betrifft eine akustisch/visuelle Anord- 
nung. Mit individuellen, verteilten Mikrofon /Lautspre- 
cheranordnungen werden mehrere Mikrofone oder Ml- 
krofonarrays und Lautsprecher oder Lautsprecherarrays 
derart adaptiert, dafS bereits vor Sprachaktivitat eine In- 
itialisierung des Arrays auf den Sprecher erreicht wird. 
Urn eine bessere Zuordnung und Erkennung des Spre- 
chers zu erhalten, ist die akustische Erkennung mit der 
Bildverarbeitung verbunden. Dies ist fur das Freispre- 
chen, fur die Spracherkennung und fur die Insassen-Kom- 
munikations-Systenne insbesondere inn Falirzeug vorteil- 
haft. 
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Beschreibung 

[0001] Die Erfindung betrifft eine Anordnung und ein 
Verfahren zur bildgesliitzten adaptiven Akustik nach dem 
Oberbegriff der Paienianspriiche 1 und 9. 
[0002] Die Erfindung findet Verwendung bei Kommuni- 
kationssystemen insbesondere im Fahrzeug. 
[0003] In einem Fahrzeugs sind die Silzplalze fest inslal* 
lien und dadurch ist die Position der moglichen Insassen re- 
lativ gut bestimmbar. Eine weilere Besonderheii ist, daB der 
Fahrer eine besondere RoUe unter den Insassen einnimmt. 
Jedoch ist es mit iiblichen akusdschen Mittein nicht mog- 
lich, einen Horer zu detektieien, wenn der Horer passiv ist. 
[0004] Gegebenenfalls wird eine Beschallung eines Sitz- 
platzes durcbgefiihrt, obwohl kein Insasse vorhanden ist. 
Das fiihrt zu unnotigen akustischen Stoning 
[0005] In der US Patentschrift 5,90 1 ,978 isi ein Verfahren 
und eine Vorrichtung zur Erfassung eines Kindcrsitzes ange- 
geben, bei dem durch Mustererkennungsverfahren u. a. die 
Sitzbelegung erkannt wird und diese Information zur Steue- 
rung z. B. der Sitzeinstellung, des Airbag Systems und des 
Unterhaltungssystems verwendet wird. Es werden visuelle 
und akusdsche Verfahren eingesetzt. Eine gezieite Ge- 
rauschreduzicrung ist bei diesem System nicht vorgesehen. 
[0006] Die Aufgabe der Erfindung besleht darin, eine Vor- 
richtung und ein Verfahren anzugeben, bei dem die Detek- 
tion der Sprachaktivitat vereinfacht, die Adaption mit dem 
akustischen Signal durch Bild verbessert und bei starken 
und/oder instationaren Gerauschen insbesondere im Fahr- 
zeug Erkennungsfehlcr vcrmieden werden. 
[0007] Die Erfindung betrefFend die Anordnung ist in An- 
spruch 1 und betreffend das Verfahren in Anspruch 9 be- 
schrieben. Vorteilhafte Ausgeslaltungen und Weiterbildun- 
gen sind den Unteranspruchen zu entnehmen. 
[0008] Mikrofon/Lautsprecheranordnungcn gemafi der 
Erfindung sind geeignet, um mehrere Mikrofone oder Mi- 
krofonarrays besser zu adaptieren, um beieits vor Sprachak- 
tivitat eine Initialisierung des Arrays auf den Sprecher zu er- 
halten. Wird die akustische Information und die Bildinfor- 
mation fusioniert, so wird auch bei SprachinakUvitat die Er- 
kennung und Idenlifizierung des Sprcchers mogHch. Dies ist 
fiir das Freisprechen, fur die Spracherkennung und fur die 
Insassen-Konununikations-Systeme insbesondere im Fahr- 
zeug vorteilhaft. 

[0009] Die Erfindung wird im folgenden anhand von Aus- 
fiihrungsbcispielen beschrieben. 

[0010] Durch die vordefinierten Sitzplatze werden neben 
der iiblichen Verwendung eines akustischen Signals, z. B. 
eines einzehien Mikrofons oder eines Mikrofon- Arrays zur 
Erfassung des Sprachsignale der Sprecher, verteilte Mikro- 
fon-Arrays eingesetzt. Fiir jeden mogHchen Insassen wird 
an dessen Sitzplatzposiuon in der Nahe seiner Mundposiuon 
ein Mikrofon plaziert. Es werden mehrere individuelle In- 
sassen- Mikrofone eingesetzt. Jedes einzelne der Insassen- 
Mikrofone wird zur weiteren Steigerung der akustischen 
Qualitat durch ein Mikrofonarray ersetzt. Es wird eine An- 
ordnung von mehreren individuellen Insassen-Mikrofon- 
Arrays gebildet. 

[0011] Dies hat den VorteiL, daB der Sprecher leicht zu de- 
tektieren ist, da durch die Nahe der individuellen Mikrofone 
garantiert ist, dafi das lauteste Mikrofon-Signal, bzw. das 
lauteste Mikrofon-Array-Signal den akuven Sprecher defi- 
niert. 

[0012] Ein weiterer Vorteil bei der Verwendung individu- 
eller Insassen-Mikrofon- Arrays besteht darin, daB der Win- 
kel des Sprechers zum Array bestimmt wird und dadurch die 
Sprecherposition genauer ermittclt wird. 
[0013] Weiterhin ist vorteilhaft, daB durch die Verkniip- 
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fting der einzelnen Insassen-Mikrofone oder Arrays nut ei- 
ner Sprecherverifikation die Identitat der einzelnen Insassen 
und deren Sitzplatz erkannt wird. 

[0014] Durch die Verkupfung der einzelnen Insassen-Mi- 
5 krofone oder Arrays mit einem Spracherkenner sind vorteil- 
hafterweise sprachbediente Operationen (Telefonbedie- 
nung, Radiobodienung u. a.) von den Insassen ausfuhrbar, 
[0015] Durch die vordefinierten Silzplalze wird neben der 
iiblichen Verwendung eines einzelnen Laulsprechersystem 
10 fiir alle Insassen eine verleiltes Lautsprecher- Arrays einge- 
setzt, bei dem fur jeden moglichen Insassen an dessen Sitz- 
platzposiuon in der Nahe seiner Ohrposition ein Lautspre- 
cher platziert isL Damit eigibt sich eine Anordnung von 
mehreren individuellen Insassen-Lautsprechem oder Ar- 
ts rays. Durch die Verwendung von Insassen-Lautsprecherar- 
rays wird die akustische Qualitat gesteigert. Es wird eine 
Anordnung von mehreren individuellen Insassen-Lautspre- 
cher-Arrays gebildet. 

[0016] Wird zusalzlich zur akustischen Erkennung die Er- 
20 kennung durch die Bildverarbeitung mit eingefiihrt, tragen 
folgende Vorteile der Bilderkennung mit zur Insassenerken- 
nung bei: 

a) Die Bildverarbeitung erkennt, wieviele Insassen 
25 vorhanden sind, bzw. welche der Sitzplatze belegt sind. 

b) Die Bildverarbeitung erkennt die Kopfposition der 
Insassen, die Ohren und den Mund. 

c) Die Bildverarbeitung erkennt die Insassen (Insas- 
sen-Identifizierung). 

30 

[0017] Durch die Fusion von Sprache und Bild wird der 
Nachteil beseitigt, daB mit der Sprache eine Identifizierung 
des Insassen nur gelingt, wenn der Insasse sprichl. Durch die 
zusatzUche Identifikation iiber Bild, ist die Identifizierung 

35 des Insassen immer moglich. 

[0018] Insbesondere erfordert die Spracheingabe mit Mi- 
krofon- Arrays die adaptierte Ausrichtung der Mikrofone auf 
den Sprecher, speziell auf den Mund des Sprechers. Mit dem 
akustischen Signal erfoigt die Ausrichtung, wenn der In- 

40 sassc sprichl. 

[0019] Durch Kombination Sprache mit Bild ergeben sich 
folgende Vorteile: 

- Initialisierung des Mikrofon-Arrays bevor der In- 

45 sasse spricht. Dadurch ist bei einsetzender Sprache 
eine gute Start-Sprachqualitat vorhanden. Auch die 
Detektion der Sprachaktivitat wird vereinfacht, da der 
Sprach-Detektionsalgorilhmus von einem Mikrofon- 
Array einfacher ist als der Bild-Detektionsalgorithmus. 

50 - Bei Sprachaktivitat wird die Adaption mit dem aku- 
stischen Signal durch Bild verbessert. 
~ Individuelle Mikrofone oder Mikrofon-Arrays fiir 
unbelegte Sitzplatze werden geschlossen. Dadurch 
werden fehlerhafte Sprachdetektionen abgeschaltet. 

55 Bei starken und/oder instationaren Gerauschen im 
Fahrzeug wird durch das Abschalten eines Mikrofons 
ein deutUcher Vorteil erreicht. Es ergeben sich weniger 
Erkennungsfehlcr fiir den Fall, daB Gerausche aus dem 
nicht mit einem Insassen belegten Mikrofonsystem 

60 dem Spracherkenner angeboten werden. 

[0020] Die Wiedergabe mit individuellen Lautsprechersy- 
stemen erfordert eine Ausrichtung auf die Ohren des Horers. 
Mit dem akustischen Signal, dem Mikrofonsignal, erfoigt 
65 die Ausrichtung der Lautsprecher, wenn der Insasse spricht. 
Durch Kombination Sprache mit Bild ergeben sich folgende 
Vorteile bei der Audio Ausgabe: 
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- Wenn der Horer hon und nicht spricbt, erfolgt die 
Kopf/Ohr-Erkennung nur mit einer Bildverarbeitung. 

- Nicht belegte Sitzplatze weiden nicht beschallL Da- 
durch entstehen keine unnotigen akustische Storungen 
der weiteien Insassen. s 

[0021] Nfic den erfindungsgemafien Anordnungen wird 
bei 

1) individuellen Audio- Wiedergabesystemen die In- lO 
formation vorgegeben, weiche Sitzplatze belegt sind. 

. Nicht belegte Sitzplatze werden nicht beschallt. Bei be- 
legten Sitzplatzen wird die Bildinfonnation benutzt urn 
dem Kop£^Ohren zu folgen. 

2) individuellen Sprach-Eingabesystemen die Infor- 15 
mation vorgegeben, weiche Sitzplatze belegt sind, um 
die Mikrofone der nichlbelegten Sitzplatze abzuschal- 
ten. 

[0022] Weitere Anwendungen findet die erfindungsge- 20 
maBe Anordnung bei Insassen-Kommunikations-Systemen 
mit Spracherkennug und Sprechererkennung insbesondere 
im Fahrzeug. Das System aus Sprach- und Bildverarbeitung 
erkennt die Sitzbelegung, d. h. den Namen der Per^onen die 
sich auf den Sitzen befinden. Die Erkennung der Personen 25 
erfolgt durch Sprecherindentifizierung und/oder Gesichts- 
Identifizierung. Per Spracherkennung wird dann z. B. von 
einem Insassen gesagt: "Ich mochte mit Peter sprechen". 
Das System erkennt von welchem Sitz gesprochen wird und 
erkennt auch den Sitzplatz von Peter. Es wird dann lediglich 30 
das Lautsprecher-Mikrofonsystem zwischen den beiden 
Personen aktiviert, die weiteren Personen werden nicht hin- 
zugeschaltet und damit nicht gestort. 
[0023] Sofem das Fahrzeug mit Monitoren an den einzel- 
nen Sitzplatzen ausgestattct ist, kann das Gesicht des Spre* 35 
chenden an den oder die Horer gesendet werden. 
[0024] Bei einer Videokonferenz mit Teilnehmem auBer- 
halb des Fahrzeugs wird das Bild des jeweils Sprechenden 
mit iibertragen. Falls jeder Sitzplatz mit einem Monitor aus- 
gestattct ist, schen die Tcilnehmer innerhalb des Fahr/eugs 40 
jeweils den Sprechenden auf ihrem individuellen Monitor. 
[0025] Die Erfindung ist nicht auf die angegebenen Aus- 
fuhrungsbeispiele beschrankt, sondem es ist die Verwen- 
dung in Konferenzsystemen jeglicher Art mdglich. 

45 

Patentanspruche 

1. Visuell- akustische Anordnung fur Audio- Weder- 
gabe, Spracheingabe und Kommunikation zwischen 
mehreren Teilnehmem, dadurch gekennzeichnet, daB so 

Mikrofon/Lautsprecheranordnungen mit mehreren Mi- 
krofonen oder Mikrofonarrays und Lautsprecher oder 
Lautsprecherarrays fur die Tcilnehmer individuell ad- 
aptiert sind, derart, dafi bereits vor Sprachaktivitat zu- 
mindest eines Teilnehmers cine Initialisierung des Ar- 55 
rays auf den Tcilnehmer erfolgt, und daB zusalzlich zur 
akusdschen Erkennung der Tcilnehmer eine Erken- 
nung mittels Bildverarbeitung erfolgt. 

2. Visuell- akustische Anordnung nach Anspruch 1, 
dadurch gekennzeichnet, daB die Anordnung in einem 60 
Fahrzeug mit vordefinierten Sitzplatze eingebaut ist. 

3. Visuell- akustische Anordnung nach Anspruch 1 und 
2, dadurch gekennzeichnet, daB zur Erfassung der 
Sprachsignale der Tcilnehmer, verteilte Mikrofon-Ar- 
rays derart angebracht sind, daB fur jeden moglichen 65 
Tcilnehmer an dessen Position in der Nahe seiner 
Mundposition zumindest ein Mikrofon oder Mikrofo- 
narray plaziert ist. 
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4. Visuell-akususche Anordnung nach Anspruch 1 und 
2, dadurch gekennzeichnet, daB fiir alle Tcilnehmer ein 
verteiltes Lautsprecher-Arrays eingebaut ist, bei dem 
fur jeden moglichen Tcilnehmer an dessen Position in 
der Nahe seiner Ohrposition ein Lautsprecher oder 
Lautsprecherarray platziert ist. 

5. Visuell-akustische Anordnung nach einem der vor- 
hergehenden Anspriiche, dadurch gekennzeichnet, daB 
die Mikrofonanordnung mit einem Spracherkennungs- 
und/oder Sprecheridentikationssystem verbunden ist. 

6. Visuell-akustische Anordnung nach einem der vor- 
hergehenden Anspniche, dadurch gekermzeichnet, daB 
die Mikrofon/Lautersprecher-Arrays jedes einzelnen 
Teilnehmers individuell ein- und ausschaltbar sind. 

7. Visuell-akustische Anordnung nach einem der vor- 
hergehenden Anspriiche, dadurch gekennzeichnet, daB 
zusatzlich zur akustischen Erkennung der Tcilnehmer 
eine Erkennung tiber die Bildverarbeitung erfolgt zur 
Besdmmung der Kopfposition, der Ohren und des 
Mundes und zur IdenUfizierung der Tcilnehmer. 

8. Visuell-akustische Anordnung nach einem der vor- 
hergehenden Anspriiche, dadurch gekennzeichnet, daB 
ein Monitor fur jeden Tcilnehmer zuschaltbar ist, auf 
dem die Tcilnehmer sichtbar sind. 

9. Visucll-akustisches Verfahrcn fiir Audio- Wieder- 
gabe, Spracheingabe und Kommunikation zwischen 
mehreren Teilnehmem, dadurch gekennzeichnet, daB 
Mikrofon/Lautsprecheranordnungen nach einem der 
vorhergehenden Anspriiche individuell an die Tcilneh- 
mer adaptiert werden, derart, daB bereits vor Sprachak- 
tivitat zumindest eines Teilnehmers cine Initialisierung 
des Arrays auf den Tcilnehmer durchgefiihrt wird, und 
daB zusatzlich zur akustischen Erkennung der Teilneh- 
mer mittels Bildverarbeitung erkannt wird. 

10. Verfahrcn nach Anspruch 9, dadurch gekennzeich- 
net, daB durch die verteilte, individuelle Anordnung 
der aktive Sprecher durch das lauteste Mikrofon-Signal 
oder das lauteste Mikrofon-Array-Signal definiert 
wird. 

11. Verfahrcn nach Anspruch 9, dadurch gekennzeich- 
net, daB bei der Verwendung individueller Insasscn- 
Mikrofon- Arrays der Winkel des Sprechers zum Array 
bestimmt wird und dadurch die Sprechcrposition ge- 
nauer ermittelt wird. 

12. Verfahrcn nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, dafi durch die Ver- 
kniipfiing der einzelnen Insassen-Mikrofone-(Arrays) 
mit einer Sprecherverifikation die Identitat der einzel- 
nen Teihiehmer und deren Position erkannt wird. 

13. Verfahrcn nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB durch die Ver- 
kupfung der einzelnen Insassen-Mikrofone oder Ar- 
rays mit einem Spracherkenner sprachbediente Opera- 
tionen von den Teilnehmem durchgefLihrt werden. 

14. Verfahrcn nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB durch die Kom- 
bination der akustischen Teilnehmererkennung mit der 
Bildverarbeitung eine Initialisiemng des Mikrofon- Ar- 
rays durchgefiihrt wird, bevor der Tcilnehmer spricht. 

15. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB bei Sprachakti- 
vitat die Adaption mit dem akustischen Signal durch 
das Bild verbessert wird. 

16. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB mit dem akusti- 
schen Signal die Ausrichtung der Lautsprecher oder 
Lautsprecherarrays erfolgt, wenn der Tcilnehmer 
spricht. 
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17. Verfahren nach einem der vorhergehenden An- 
spriiche, daduich gekennzeicbnet, dafi wenn der Horer 
hort und nicht spricht, die Kopf/Ohr-Erkennung nur 
mit einer Bildverarbeitung durchgefiihrt wird. 

18. Verfahren nach einem der vorhergehenden An- 5 
spriiche, dadurch gekennzeichnet, daB mitiels Bildver- 
arbeitung nicht belegie Sitzplatze erkannt werden, und 
daB die individueUen Mikrofone oder Mikrof on- Arrays 
fUr unbelegte Sitzplatze geschlossen werden und da- 
durch fehlerhafte Sprachdetektionen abgeschaltet wer- 10 
den. 
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